连载(4):统计图形艺术——直方图
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。
直 方 图Histogram
直方图,由英国著名的统计学家Karl Pearson于1895年首次提出。将所有数据等距分为若干组,每组所对应“柱子”的高度代表该组的样本数占总数之比例,以直观展示同质样本中数值变量的分布 【1】。Pearson曾收集了欧洲250位君主在位年限,以3年为距绘制直方图(图 4.1),直观可见在位9-12年者最多,罕见在位超过50年的君主 【2】。
常用于展示连续性数据分布情况,用于预判数据之分布,亦可发现潜在离群值。
金字塔图通常用于显示所有年龄组和男女人口的分布情况。
例: 本节将以江苏省13088名青少年体质指数(body mass index, BMI)和身高等体检数据为例,示范直方图的绘制和应用。
首先,将BMI等间距分为30组,以BMI为横坐标,以各组频数作为纵坐标,作直方图(图 4.2)。
图4.2:江苏省13088名青少年
体质指数分布直方图
例:续上例。
若将BMI等间距分别分为5、10、15、20、35、50组并绘制直方图(图 4.3)。
如图所示,随着组数的增加,条图将越来越窄,直方图所展示的数据分布越发接近其实际分布。随着组数的增加,直方图和核函数拟合曲线趋于重合。
图4.3:江苏省13088名青少年
体质指数分布直方图
例:续上例。
纵坐标亦可换为频率,X轴上可增加轴须以体现数值密度,各柱可按照BMI从小到大设置阶梯色以增加区分度,直方图上可叠加核密度拟合曲线 (图 4.4)。
图4.4:江苏省13088名青少年
体质指数分布直方图
若数据内部存在异质性,则须绘制分层直方图。
例如,不同年龄段青少年身高分布不同,则将青少年的身高按照年龄分层(小学:年龄 7-12岁,初中:年龄 13-15岁,高中:年龄 16-18岁)作身高分布直方图叠加图,可知各年龄组青少年的身高分布差异。亦可通过参数 position=dodge 绘制簇状直方图(图 4.5)。
图4.5:江苏省13088名青少年
按学制等级分组身高分布直方图
例:续上例。
若进一步考虑性别的身高差异,则可绘制上下对称的直方图,上下对照,避免了直方图互相遮蔽,又直观反映组间分布差异,亦称为蝴蝶图(图 4.6)。
图4.6:江苏省13088名青少年
按学制等级分组的性别对称直方图
例:以上海奥密克戎疫情期间每日症状前感染者数据为例。
2022年2月26日上海发生奥秘克戎疫情,据统计从3月1日至6月6日,上海累计新增本土病例64.9万例,其中确诊病例64.9万例,无症状感染者59.1万例。
我们构建动力学模型模拟合真实数据并估算自2月26日至5月31日上海每日现存症状前感染者(presymptomatic case)人数,其中 P1和P2 分别代表在大规模核酸检查中未被发现(P1)和被发现(P2)的症状前期感染者(图 4.7)。
图4.7:上海奥密克戎流行期间
现存感染者堆叠直方图
金字塔图,是背靠背的直方图,常用来展示某人群的人口年龄结构,也被称为人口金字塔(population pyramid),用于显示所有年龄组和男女人口的分布情况。
X轴通常表示人口,Y轴为年龄组别,用于检测人口结构的变化。
例:本例将展示全国第六次人口普查年龄结构分布(图 4.8)。
图4.8:2010年中国第六次
人口普查年龄结构
峰峦图又称山峰图,其本质属于多密度分布图形的错位排列,用来展示多组的某一连续性数据的分布情况。
例1: 本例以江苏省13088名青少年身高数据为例,按学制分为3组,用峰峦图展示不同学制学生身高分布差异(图 4.9)。
图4.9:江苏省13088名青少年
按学制等级分组身高分布峰峦图
例2: 本例以每日新增病例数绘制峰峦图展示新冠局部疫情此起彼伏之势(图 4.10)。
据统计,从2020年5月我国第一波新冠疫情结束,至2022年2月7日,我国本土局部疫情累计病例数大于等于50例的共涉及27个城市。
图4.10:2020-2022年中国27个城市
新冠局部疫情峰峦图
螺旋直方图基于阿基米德螺旋坐标系,常用于绘制随时间变化的数据,用来展示数据的周期性或变化趋势。
例: 本例展示上海市2017年至2020年4年日均PM2.5浓度变化情况(图 4.11)。
在我国标准中,24小时PM2.5平均浓度限值为75微克/立方。
由图可见,上海市日均PM2.5浓度在这四年中大部分都低于限值(图 4.11)。
图4.11:上海市2017-2020年日均
PM2.5浓度变化之螺旋直方图
不适合于样本量较小的研究(如不足百例),此时直方图无法准确反映数据的分布。 分组不宜过多,以免出现“过拟合”现象。 若嫌学术派略显沉闷,可以采取非学术派的“惊艳”配色——商业化hist配色。
参考文献:
Pearson K. Contributions to the mathematical theory of evolution. II. Skew variation in homogeneous material. 1895.
Trustam PCF. BIOMETRY AND CHRONOLOGY. 1928;20A(3-4):241–62.
写作:魏永越*,张隆垚,尹晓晓
排版:李 颖
审阅:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技